查看原文
其他

视频 |余凯:数据本身不是优势,数据+深度学习才能形成商业壁垒

2016-03-20 余凯 混沌研习社


https://v.qq.com/txp/iframe/player.html?vid=n0188qylpj8&width=500&height=375&auto=0

传统的人工智能算法,随着数据规模的增长,效果不增长,因为算法不能处理更大规模的数据。但是深度学习的算法可以处理大数据。这使得数据成为一个商业壁垒,你的数据越多,你的优势就越大。


演讲者 | 余凯(地平线机器人科技创始人,前百度研究院副院长)
为什么在过去长达五六十年的时间里,AI(人工智能)煽起大家这么大的热情,却没有取得我们期待的进展?

基于规则的AI无法工作

AI发展历史教训很多

数据驱动的AI才有前景

一个本质的问题是说,过去绝大部分的AI系统,都希望从演绎的方式来进展。演绎方法论起源于自然科学,从公理出发推导,而公理不需要证明也无法证明。

比如说在没有外力的情况下,物体将保持直线匀速运动。这就是公理,这是一切推理出发的原点,跟上帝造人一样不能被证明。

但是从这样的系统和思维出发,会导致人工智能系统于简单粗暴,因为我们要模拟的是一个复杂系统的行为,所以没法用简单的规则去描述。


这种基于规则的AI系统是没法工作的,所以我们在人工智能的发展史上,其实有过很多教训:


1

教训一是说,这个世界纷繁复杂,有很多很多的因素,这些因素相互作用影响,我们很难用一个简单的公式去描述。

2

教训二就是,很多的因素你观测到了,很多因素你观测不到,你无法观测系统运行里所有的参量,现实是基于概率来运行的。

3

第三点就是,因为现实世界纷繁复杂,你自己直接去抓住它的规律去描述它是非常非常难的,所以我们说,要从数据中去学习,从数据中不断增长对问题的理解。


这也是为什么今天那么重视大数据,因为本质上,它为我们提供了一种了解纷繁复杂世界的能力,随着数据而增长的这种学习能力很关键。


今天,我们走到了一个数据驱动的人工智能时代。我们把数据都导进模型,系统进行消化吸收,然后生产对世界认知的某种模型。

比如,我们输入图像,终端输出一个物体的名字,这个叫图像识别。再比如我们输入语音,终端得到了一连串的文本序列,这个叫做语音识别。这种能力我们称之为深度学习的能力。
在2014年的时候,深度学习被麻省理工学院的科技评论杂志评为10大突破性的技术的第一名。那些最大规模的互联网公司,谷歌、微软、Facebook,甚至包括百度,都成立了深度学习研究院。

以前,很少说一个技术从高校出来,短时间里就对这么多大公司造成了这么大的影响,并在提升用户体验和创造商业价值方面产生了很大的作用,也让类似自动驾驶这种过去不可想象的事情,在今天变得触手可及。


语音识别、图像识别等初步的机器深度学习的能力,在短时间内带来了用户智能体验的巨大提升。


传统人工智能无法处理太多数据

数据再多也形成不了优势

大数据+深度学习形成商业壁垒


为什么说大数据对人工智能学习非常重要?在传统的人工智能计算中,我们采集到的数据有噪声,而且样本量不够,这些都会带来误差。
第二,即使你有无限的样本数据,有完美的计算方法,实际情况中,还是会遭遇计算的不完美。

比如,我的下属跟我说,老大,你交给我这个任务,我需要用1000台机器,算3个月。我说不行,我只有50台计算机给你,而且今晚必须算完。这可能导致我们在计算时,原本应该要求解100步,最后只求解了10步。

传统的人工智能算法,随着数据规模的增长,效果不增长,因为它的算法不能够处理更大规模的数据,数据多了它算不动了。


因为数据多了,需要的机器也随之增多,并且机器跟机器之间的通讯,会成为一个巨大的瓶颈。


但是深度学习的模型足够复杂,它的算法可以处理大数据,使得在数据规模增长的情况下,还能不断提升计算效果。这通常也真正使得数据成为一个商业壁垒,你数据越多,你的优势就越大。



最近我们看到的一些人工智能的显著进展都来源于端到端数据收集的成功应用。


过去都是分析已预处理的数据

通过端到端的数据收集和处理深度学习实现全过程的整体优化

深度学习是历史上的第一次出现,所谓叫端到端的学习方式,End-to-End  Learning。


什么叫端到端学习的方式?通常来说,无论是说语音识别,图像识别,还是数据挖掘,所有的深度学习基本上是这样一个传输路径:


从一个低水平的数据感知,到数据预处理,到各个部分的特征抽取,再到体征变换,最后得到了一个数据形式。


数据分析人员基于这个处理过的数据形式去做预测和判断。在过去,我们大量的研究工作都放在了最后一个环节上,就是如何去分析一个已经预处理了的数据。
但是2006年开始,深度学习提出了一个全新的思想。把数据收集,数据预处理以前这些支离破碎的步骤(通常都是人工处理的),变成一个一气呵成的系统,去掉中间这些人工干预的步骤,朝着最终的单一目标实现全程的优化,而不是局部的优化。
从最原始的输入图像出发,到中间每一层的数据抽取变换,到最终的数据结果,全部都是没有人工干预的训练过程。
这个带来的变化其实是革命性的。最近我们看到的一些人工智能的显著进展都来源于端到端思想的成功应用。
*本文和视频均据余凯在混沌研习社的课程内容整理而成,欢迎转发分享,微信公众号可直接转载,其他转载请微信联系warmly11。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存